#Google TPU
Google第八代TPU詳解:聯手博通與聯發科挑戰輝達!
當地時間2026年4月22日,在拉斯維加斯舉行的Google Cloud Next '26大會上,Google正式發佈了第八代張量處理器(TPU)。這是Google史上首次將AI訓練與推理任務拆分至兩款獨立晶片——專為模型訓練設計的TPU 8t與專為推理最佳化的TPU 8i,標誌著其AI硬體戰略的重大轉向。與此同時,Google宣佈其第七代TPU Ironwood正式向雲客戶開放,並預告了與輝達的深度合作——將在2026年下半年成為首家提供NVIDIA Vera Rubin NVL72超級電腦的雲服務商。為何拆分訓練與推理?Google做出這一戰略調整的根本原因,是AI計算負載的日益分化。GoogleAI與基礎設施高級副總裁兼首席技術官Amin Vahdat在官方部落格中指出:“隨著AI智能體的興起,我們確定業界將受益於針對訓練和推理需求分別進行專門最佳化的晶片。”具體而言,訓練任務追求極致的吞吐量與規模擴展能力,需要晶片具備最高的計算密度和記憶體頻寬,以在數周甚至數月內處理兆級參數。而推理任務則對延遲和並行更為敏感——當數百萬個AI智能體同時執行階段,響應速度至關重要,而對峰值算力的要求相對較低。Amin Vahdat在大會現場明確表示:“這兩款晶片都是從頭開始專門為訓練和推理設計的,而非彼此衍生產品。它們的規格、能力、互聯方式都因各自需求而專門設計。Alphabet首席執行長桑達爾·皮查伊則強調,這一新架構旨在以低成本提供大規模吞吐量和低延遲,滿足數百萬個AI智能體同時運行的需求。TPU 8t:大規模預訓練旗艦晶片TPU 8t由Google和博通共同設計,是Google為超大規模AI模型訓練打造的旗艦晶片。單個超級計算節點最多可整合9,600塊TPU 8t晶片,配備2 PB高頻寬記憶體,每Pod計算性能達121 exaflops(FP4精度),較上一代Ironwood提升約3倍,同等價格下性能提升2.8倍。通過JAX與Pathways框架,可將分佈式訓練擴展至單一叢集超過100萬塊晶片。在架構設計上,TPU 8t採用雙計算芯粒加單I/O芯粒的架構,配備8組12層堆疊的HBM3e高頻寬記憶體。晶片搭載了SparseCore專用加速器,專門處理大語言模型尋找過程中常見的不規則記憶體訪問問題;同時支援原生FP4浮點精度,矩陣運算單元算力吞吐直接翻倍,海量資料搬運功耗大幅下降。為匹配海量資料吞吐需求,Google全新研發了Virgo互聯架構,訓練場景資料中心網路頻寬最高提升至前代4倍。該架構採用高基數交換機減少層級,扁平化兩層無阻塞拓撲結構,單套網路可互聯13.4萬顆TPU 8t晶片,無阻塞二分頻寬高達47Pbps,晶片間互聯頻寬較上一代提升2倍。在儲存訪問方面,TPU 8t通過TPU直連RDMA和TPU直連儲存兩項技術,繞過CPU實現TPU與網路卡、高速儲存之間的直接記憶體訪問,儲存訪問速度提升10倍。此外,晶片還擁有一整套可靠性、可用性與可維護性能力,包括即時遙測監控、自動檢測並繞過故障鏈路、以及無需人工干預自動重構硬體拓撲的光路電路交換技術。TPU 8i:高並行推理專屬平台TPU 8i首次由Google和聯發科合作設計,專注於AI推理場景,旨在消除“等待室效應”——即使用者請求被有意排隊或延遲以實現硬體利用率最大化的情況。單個Pod可擴展至1,152塊晶片,提供11.6 exaflops FP8計算性能,較Ironwood同等價格下性能提升80%,每瓦性能較上一代提升117%。TPU 8i最顯著的特徵是搭載了384MB片上SRAM快取,容量是上一代Ironwood的三倍。這一設計的核心價值在於可將更大的KV Cache保留在晶片上,大幅減少長上下文解碼時晶片核心的空閒等待時間,實現更快的文字生成速度和更低的延遲。晶片還引入了全新的集合通訊加速引擎(CAE),專門加速自回歸解碼與思維鏈推理所需的規約與同步運算,多核心結果聚合幾乎零延遲,片上集合通訊延遲較前代降低5倍。單顆TPU 8i內建兩顆張量核心和一顆片上CAE,替代前代Ironwood的四顆稀疏計算核心。TPU 8i最大的架構創新在於放棄了TPU傳統的3D環形拓撲結構,轉而採用全新的Boardfly層級互聯拓撲。在MoE(混合專家模型)與推理模型時代,任意晶片都需要隨時互通Token資料,跳轉次數直接決定性能。對於8×8×16規模(1024晶片)的3D環形網路,最遠晶片通訊需要16跳;而Boardfly拓撲在同等規模下僅需7跳,網路直徑縮減56%。Boardfly採用分層設計:4顆晶片環形互聯構成基礎單元,8塊板卡通過銅纜全互聯構成本地算力組,36個算力組通過光開關互聯構成最高1024顆晶片的叢集。在這種結構下,任意兩枚晶片之間的通訊最多隻需經過7次跳轉,全對全通訊延遲改善最高50%,這對混合專家模型和頻繁的跨晶片令牌路由極為有利。TPU 8i配備288GB HBM高頻寬記憶體,結合384MB片上SRAM,確保模型的活躍工作集能夠完全保留在晶片內部運行,從根本上解決“記憶體牆”問題。基於2nm製程,2027年底量產兩款第八代TPU晶片均搭載了Google自研的Arm架構Axion CPU作為主控,徹底解決資料預處理延遲導致的主機算力瓶頸。晶片採用台積電2nm製程工藝製造,目標在2027年底量產,並由公司第四代液冷技術支援散熱。在軟體生態方面,第八代TPU支援JAX、PyTorch、Keras及vLLM等主流框架,原生PyTorch支援現已進入預覽階段,使用者可直接遷移模型而無需修改程式碼。Anthropic已承諾採用GoogleTPU的採用率正在持續攀升。Anthropic已承諾採用數GW等級的TPU算力,2027年上線規模將擴展至3.5吉瓦,成為第八代TPU的錨定客戶。此外,Citadel Securities已利用TPU打造量化研究軟體,美國能源部旗下17個國家實驗室全面採用基於TPU的AI協同科學家系統。分析師普遍認為,Google通過將TPU一拆為二,是對AI訓練與推理需求加速分化的直接回應,有助於大幅提升特定場景下的單位算力性價比,從而降低雲客戶部署成本。 (芯智訊)
剛剛,Google發佈第8代TPU,算力怪獸、性能爆表!
目錄為訓練而生的 TPU 8t專注代理式 AI 及推理需求的 TPU 8i與 Gemini 共同設計、支援廣泛開發框架最大化能源效率Google Cloud 的 TPU 以往都是採用單晶片兼具訓練及推理功能的設計,不過在 Google Cloud 年度盛會 Google Cloud Next '26 上,宣佈推出兩款差異化的第 8 代 TPU 產品,攜手 Google DeepMind 開發針對訓練的 TPU 8t 以及針對推理的 TPU 8i。Google強調通過針對 AI 兩大核心任務不同的執行需求進行最佳化設計,進一步將性能發揮到極致。同時 Google 也強調兩款晶片都能運行各類 AI 負載,只是在各自擅長的領域表現更強。為訓練而生的 TPU 8t▲用於訓練的 TPU 8t Pod 晶片總量雖未翻倍,但晶片互聯及叢集互聯頻寬大幅提升、FP4 性能顯著增強。TPU 8t 旨在處理大規模、計算密集型訓練任務,提供更高的計算吞吐量與可擴展頻寬,滿足 AI 模型訓練需求,單晶片配備 216GB HBM。Google 表示,基於 TPU 8t 的 Pod 相較上一代產品性能提升 3 倍,可將模型開發周期從數月縮短至數周,並儘可能提升能源效率。TPU 8t 可擴展至 9600 顆晶片與 2PB 的 HBM 記憶體,晶片間頻寬相較上一代提升兩倍,可實現高達 121 ExaFlops 的算力,讓超大型模型能夠使用統一的超大記憶體池。此外,TPU 8t 還整合了速度提升 10 倍的儲存訪問,通過 TPUDirect 讓資料繞過 CPU 直接進入 TPU,進一步提升計算效率。借助 Google 全新 Virgo 網路以及 JAX、Pathways 軟體,TPU 8t 可在包含百萬顆晶片的叢集中實現近乎線性的性能擴展。同時,TPU 8t 通過 RAS 功能保障可靠性,包括對數萬顆晶片即時監測、自動檢測並在不中斷作業的情況下繞過故障 ICI 連接,以及 OCS 光路交換任務等自主維護機制,將硬體故障對叢集及訓練的影響降至最低,力爭實現超過 97% 的有效吞吐量。專注代理式 AI 及推理需求的 TPU 8i▲由 TPU 8i 構成的推理 POD 規模更大,無論記憶體容量、頻寬還是推理性能均大幅提升。TPU 8i 是面向 AI 推理與代理式 AI 服務開發的晶片,擁有更高記憶體頻寬與極低的推理延遲。通過解決記憶體傳輸瓶頸、搭配 Axion CPU 架構、針對 MoE 混合專家模型最佳化及降低延遲等四項關鍵技術,為新一代代理式 AI 及 AI 推理需求實現最佳化設計,綜合使每美元效能提升 80%,企業可用相同成本服務兩倍的使用者。TPU 8i 搭載 288GB HBM 記憶體與 384MB 片上 SRAM,解決記憶體傳輸瓶頸,容量相較上一代提升 3 倍,幾乎不會出現等待記憶體傳輸的閒置情況。同時,TPU 8i 伺服器物理 CPU 數量相較上一代增加一倍,採用基於 Arm 指令集的 Google 定製 Axion 架構,通過非均勻記憶體架構(NUMA)隔離,進一步擴展性能。MoE 混合專家模型是代理式 AI 的發展趨勢,由多個小型專家模型組成,僅在需要時載入相關模型,執行混合任務時無需在多個模型間切換。Google 將 TPU 8i 的晶片互聯頻寬提升至 19.2TB/s,相較上一代翻倍,確保多顆 TPU 8i 組成的系統具備統一、低延遲特性,媲美大型單晶片。此外,通過片上 CAE(集體加速引擎)解除安裝全域操作,可將晶片延遲降低 5 倍,大幅縮短響應時間。與 Gemini 共同設計、支援廣泛開發框架▲無論是 TPU 8t 還是 TPU 8i,均可運行所有 AI 任務,架構則分別針對訓練與推理場景最佳化。兩款第 8 代 TPU 晶片均與 Gemini 協同設計,其中 Boardfly 拓撲結構為滿足當前最強推理模型的通訊需求而設計,TPU 8i 的 SRAM 容量則依據量產級推理模型的 KV 快取佔用空間確定,Virgo 網路架構的頻寬目標則根據兆參數訓練的平行性需求制定。同時,TPU 8t 與 TPU 8i 均搭配 Google 定製 Axion CPU 系統運行,實現系統級最佳化。兩款平台均原生支援 AX、MaxText、PyTorch、SGLang、vLLM 等常用框架,支援客戶無需虛擬化直接訪問硬體,同時開源了 MaxText 參考實現與用於強化學習的 Tunix 等相關資料。最大化能源效率:第4代液冷▲Google 強調從 CPU、TPU 到系統設計全程自主把控,實現能源效率最大化,圖為 TPU 8 系列採用的第 4 代液冷架構。面對 AI 資料中心因海量算力需求帶來的能源緊張問題,Google 表示,TPU 8t 與 TPU 8i 相較代號 Ironwood 的第 7 代 TPU,能源效率提升兩倍,最佳化覆蓋整體架構設計、整合可即時動態調節功耗的電源管理等方面。同時從晶片到資料中心實現全系統級能效最佳化,例如將網路連線與計算整合在同一晶片,降低 TPU 晶片資料傳輸能耗,並圍繞 TPU 協同設計資料中心架構,最終相較五年前每單位電力算力提升 6 倍。TPU 8t 與 TPU 8i 採用 Google 第 4 代液冷散熱架構,實現傳統風冷難以企及的高性能密度。加上從 CPU、TPU 到整機系統的全鏈路自主設計,達成傳統分體式主機與晶片方案無法實現的高效能表現。 (芯榜+)
GoogleTPU V8發佈!液冷架構曝光,四家中國液冷供應鏈有望快速受益
01.TPU V8發佈,單晶片1300W,液冷成必選,三大液冷賽道利多點2026 年 4 月 22 日,Google正式推出第八代定製 TPU,分為面向大規模訓練的TPU 8t與專注低延遲推理的TPU 8i,由 Google DeepMind 深度參與設計,是Google首次將訓練與推理晶片獨立打造的 AI 加速方案,將於年內晚些時候登陸Google AI 超級電腦。亮點1:單晶片功耗1300W,液冷成唯一可選Google於2026年4月22日在Cloud Next大會上宣佈,新一代TPU V8晶片將全面採用液冷散熱方案,TPU V8單晶片功耗達1300W,較前代V7的980W提升30%。TPU V8的單晶片功耗已超過輝達GB200單晶片功耗,風冷已完全無法滿足,液冷是本代機型的唯一選擇。依舊是延續V7採用小冷板方案,Manifold採用銅方案,這個和輝達的架構差異較大,液冷覆蓋率預估80%左右。亮點2:Google採用第四代液冷技術和Google第四代機櫃式CDU本次google的TPU v8架構將延用第四代液冷技術,CDU並未採用最新發佈的第五代2MWCDU,而是採用上一代的1MWCDU。亮點3:晶片出貨量上調,機櫃出貨量大增2026年其母公司Alphabet資本開支將超1700億美元,同比增長90%以上。同時,Google新一代訓練晶片TPU V8的出貨量呈現大幅超預期態勢,其中2026年(今年)出貨量預估達到90萬至120萬顆,較此前市場保守預估的50萬顆大幅上調,超出幅度超一倍,這一上調主要得益於Anthropic等外部大客戶的算力採購需求超預期,以及CoWoS封裝產能的逐步釋放,使得TPU V8成為2026至2027年GoogleTPU系列晶片中的放量主力型號。值得注意的是,本次上調的出貨量口徑覆蓋了TPU V8全系列,包括訓練型和推理型晶片,而此前市場僅保守關注V8p型號50萬顆的年出貨量預期。按照GoogleTPU V7/V8系列統一的標準整機櫃配置(1台整機櫃對應64顆TPU晶片)測算,2026年TPU V8對應的整機櫃數量區間為1.41萬台至1.88萬台,其中按90萬顆的出貨量下限計算,對應整機櫃數量為14062.5台,按120萬顆的出貨量上限計算,對應整機櫃數量為18750台。展望2027年,TPU V8的出貨量預估將進一步攀升至600萬顆,按照同樣的64顆/整機櫃標準配置測算,2027年TPU V8對應的整機櫃數量將達到9.375萬台。TPU V8全系列均採用液冷機櫃部署模式,隨著其出貨量的大幅增長,液冷散熱裝置以及等相關產業鏈環節的需求也將同步放量,進一步帶動整個算力產業鏈的發展。02.Google國內液冷供應鏈受益從今年Google在Cloud Next大會釋放的資訊來看。Google的ASIC晶片進展超出預期,產能與出貨量正穩步攀升,尤其TPU V8等新一代晶片出貨量大幅超預期,而且Google今年的TPU晶片將更大規模採用液冷,對於資料中心液冷基礎設施的廠商是極大利多資訊。此前Google,亞馬遜等北美頭部CSP客戶的主要液冷供應商是台灣的AVC,台達電等廠商,但幾乎液冷產能都被輝達生態預定,無法快速分出新的產能配合Asic機型的液冷需求。在這一背景下,Google轉向和更具性價比和快速交付的中國液冷供應商,為國內相關企業切入Google供應鏈、搶佔市場份額創造了絕佳機遇,國內液冷領域相關企業有望充分受益於這一行業紅利。此前三月就知情人士透露,Google近期正積極與中國多家企業展開接觸,就採購資料中心冷卻系統進行洽談。目前據最新消息,目前今年Google啟動的國內供應商洽談及審廠工作有序推進,其中四家企業的審廠進展十分順利,已逐步通過Google嚴苛的多輪稽核的相關流程,成為Google液冷供應鏈的優先受益對象。這四家企業分別是英維克,大元泵業、飛龍股份、以及立敏達(由領益智造控股)。英維克作為國內溫控龍頭,憑藉全鏈條液冷解決方案能力通過Google全流程驗證,供應Google的冷卻分配單元(CDU)。飛龍股份的電子水泵通過下游系統整合商匯入GoogleCDU供應鏈,產品適配GoogleTPU晶片的散熱需求且已獲得相關能效認證。大元泵業旗下子公司合肥新滬在液冷遮蔽泵領域具備較強競爭力,配合頭部液冷整合商的CDU產品,直接匯入Google的液冷供應鏈,供應水泵產品。立敏達通過的Google認證,將有望供應冷板及manifold,被領益智造收購後成為其切入Google供應鏈的核心載體,四家企業將優先承接Google液冷供應鏈的增量需求,在GoogleASIC晶片產能擴張的浪潮中實現業務突破與規模增長。 (零氪1+1)
Google「最強TPU」發佈!算力封神!
Google「最強TPU」發佈!目錄為訓練而生的 TPU 8t專注代理式 AI 及推理需求的 TPU 8i與 Gemini 共同設計、支援廣泛開發框架最大化能源效率Google Cloud 的 TPU 以往都是採用單晶片兼具訓練及推理功能的設計,不過在 Google Cloud 年度盛會 Google Cloud Next '26 上,宣佈推出兩款差異化的第 8 代 TPU 產品,攜手 Google DeepMind 開發針對訓練的 TPU 8t 以及針對推理的 TPU 8i。Google強調通過針對 AI 兩大核心任務不同的執行需求進行最佳化設計,進一步將性能發揮到極致。同時 Google 也強調兩款晶片都能運行各類 AI 負載,只是在各自擅長的領域表現更強。1、為訓練而生的 TPU 8t▲用於訓練的 TPU 8t Pod 晶片總量雖未翻倍,但晶片互聯及叢集互聯頻寬大幅提升、FP4 性能顯著增強。TPU 8t 旨在處理大規模、計算密集型訓練任務,提供更高的計算吞吐量與可擴展頻寬,滿足 AI 模型訓練需求,單晶片配備 216GB HBM。Google 表示,基於 TPU 8t 的 Pod 相較上一代產品性能提升 3 倍,可將模型開發周期從數月縮短至數周,並儘可能提升能源效率。TPU 8t 可擴展至 9600 顆晶片與 2PB 的 HBM 記憶體,晶片間頻寬相較上一代提升兩倍,可實現高達 121 ExaFlops 的算力,讓超大型模型能夠使用統一的超大記憶體池。此外,TPU 8t 還整合了速度提升 10 倍的儲存訪問,通過 TPUDirect 讓資料繞過 CPU 直接進入 TPU,進一步提升計算效率。借助 Google 全新 Virgo 網路以及 JAX、Pathways 軟體,TPU 8t 可在包含百萬顆晶片的叢集中實現近乎線性的性能擴展。同時,TPU 8t 通過 RAS 功能保障可靠性,包括對數萬顆晶片即時監測、自動檢測並在不中斷作業的情況下繞過故障 ICI 連接,以及 OCS 光路交換任務等自主維護機制,將硬體故障對叢集及訓練的影響降至最低,力爭實現超過 97% 的有效吞吐量。2、專注代理式 AI 及推理需求的 TPU 8i▲由 TPU 8i 構成的推理 POD 規模更大,無論記憶體容量、頻寬還是推理性能均大幅提升。TPU 8i 是面向 AI 推理與代理式 AI 服務開發的晶片,擁有更高記憶體頻寬與極低的推理延遲。通過解決記憶體傳輸瓶頸、搭配 Axion CPU 架構、針對 MoE 混合專家模型最佳化及降低延遲等四項關鍵技術,為新一代代理式 AI 及 AI 推理需求實現最佳化設計,綜合使每美元效能提升 80%,企業可用相同成本服務兩倍的使用者。TPU 8i 搭載 288GB HBM 記憶體與 384MB 片上 SRAM,解決記憶體傳輸瓶頸,容量相較上一代提升 3 倍,幾乎不會出現等待記憶體傳輸的閒置情況。同時,TPU 8i 伺服器物理 CPU 數量相較上一代增加一倍,採用基於 Arm 指令集的 Google 定製 Axion 架構,通過非均勻記憶體架構(NUMA)隔離,進一步擴展性能。MoE 混合專家模型是代理式 AI 的發展趨勢,由多個小型專家模型組成,僅在需要時載入相關模型,執行混合任務時無需在多個模型間切換。Google 將 TPU 8i 的晶片互聯頻寬提升至 19.2TB/s,相較上一代翻倍,確保多顆 TPU 8i 組成的系統具備統一、低延遲特性,媲美大型單晶片。此外,通過片上 CAE(集體加速引擎)解除安裝全域操作,可將晶片延遲降低 5 倍,大幅縮短響應時間。3、與 Gemini 共同設計、支援廣泛開發框架▲無論是 TPU 8t 還是 TPU 8i,均可運行所有 AI 任務,架構則分別針對訓練與推理場景最佳化。兩款第 8 代 TPU 晶片均與 Gemini 協同設計,其中 Boardfly 拓撲結構為滿足當前最強推理模型的通訊需求而設計,TPU 8i 的 SRAM 容量則依據量產級推理模型的 KV 快取佔用空間確定,Virgo 網路架構的頻寬目標則根據兆參數訓練的平行性需求制定。同時,TPU 8t 與 TPU 8i 均搭配 Google 定製 Axion CPU 系統運行,實現系統級最佳化。兩款平台均原生支援 AX、MaxText、PyTorch、SGLang、vLLM 等常用框架,支援客戶無需虛擬化直接訪問硬體,同時開源了 MaxText 參考實現與用於強化學習的 Tunix 等相關資料。4、最大化能源效率:第4代液冷▲Google 強調從 CPU、TPU 到系統設計全程自主把控,實現能源效率最大化,圖為 TPU 8 系列採用的第 4 代液冷架構。面對 AI 資料中心因海量算力需求帶來的能源緊張問題,Google 表示,TPU 8t 與 TPU 8i 相較代號 Ironwood 的第 7 代 TPU,能源效率提升兩倍,最佳化覆蓋整體架構設計、整合可即時動態調節功耗的電源管理等方面。同時從晶片到資料中心實現全系統級能效最佳化,例如將網路連線與計算整合在同一晶片,降低 TPU 晶片資料傳輸能耗,並圍繞 TPU 協同設計資料中心架構,最終相較五年前每單位電力算力提升 6 倍。TPU 8t 與 TPU 8i 採用 Google 第 4 代液冷散熱架構,實現傳統風冷難以企及的高性能密度。加上從 CPU、TPU 到整機系統的全鏈路自主設計,達成傳統分體式主機與晶片方案無法實現的高效能表現。 (芯榜)
GPU時代落幕?矽谷巨頭集體「叛逃」,輝達1500億瘋狂自救
去GPU化的浪潮,已經攔不住了!OpenAI嫌輝達太慢,Anthropic砸1486億投奔TPU,老黃被迫200億天價收購「叛徒」自救。如今,算力軍備賽正式進入能效為王的新時代:誰先卡住「每焦耳每微秒」的極限,誰或許就是下一個十年的霸主。再過兩周,黃仁勳將站上GTC 2026的舞台。他提前放了話:「我們準備了幾款世界上前所未見的全新晶片。」底氣來自一份炸裂的成績單——輝達2026財年年收入2159億美元,淨利潤翻倍,資料中心業務三年翻了13倍。在財報電話會上,CFO直接甩出一個數字:客戶已經部署了9吉瓦的Blackwell基礎設施!但詭異的一幕出現了。財報發佈當晚,輝達盤後一度漲超4%。隨後股價悄然轉跌,次日直接低開低走,收跌5.46%,一夜蒸發數千億美元市值。華爾街不是看不懂數字,是看懂了趨勢。前有Anthropic甩出210億美元訂單,全面採購基於GoogleTPU的算力系統;後有Meta跟Google簽下數十億美元晶片大單,大規模租用TPU訓練模型。為了給程式設計帶來接近即時的響應體驗,OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark,部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。輝達最大的幾個客戶,正在集體分散籌碼。全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部)根據摩根大通的產能報告,Google計畫在2027年部署600至700萬顆TPU,大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%升至2027年的45%。類似的,IDC也預測,到2028年,中國非GPU伺服器市場規模佔比將逼近50%。GPU的致命短板一個更深層的轉折正在發生:AI的競爭焦點,正從單純的算力規模,轉向對能效比與延遲的極致追求。過去拼誰卡多、誰叢集大。現在拼的是,同樣花一塊錢,誰能吐出更多Token。「每美元產生的Token數」正在取代峰值算力,成為衡量晶片商業價值的核心指標。究其原因在於,GPU的架構決定了,每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。路徑長、次數多,能耗就高、延遲就大。堆更多卡解決不了這個問題。路透社爆料,OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條「巨龍」尋求改變。圖靈獎得主David Patterson教授在最新研究中指出,大模型每次token生成都繞不開資料搬運,而搬運能耗遠高於計算本身。未來的核心命題是「讓資料離計算更近」。為此,他給出了三個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。實際上,這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。換句話說就是,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。GoogleTPU殺向商用市場一直以來,GoogleTPU專供自家大模型訓練和推理,外人用不到。去年開始,Google把TPU推向了商用。訂單隨即湧入。博通CEO透露,Anthropic下了210億美元的大單;Meta簽下數十億美元TPU租賃協議;潛在客戶還包括蘋果和已與SpaceX合併的xAI。原因不難理解。大模型進入規模化落地階段,算力需求爆發、成本壓力加劇,單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能,已經具備與頂級GPU分庭抗禮的實力。2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片——單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。劃重點:TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。不僅如此,Google自研的光電路交換機(OCS)技術,還讓萬卡級叢集實現近乎線性的加速比。相比之下,傳統GPU叢集規模越大,通訊損耗越嚴重;而TPU叢集基本不吃這個虧。Google TPU v5e、v5p、v6、v7晶片關鍵性能對比GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。回到成本帳上。TPU憑藉AI專用架構帶來的2-4倍能效優勢,將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。當下,大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。手裡有TPU,就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。OpenAI與Anthropic購買算力的成本對比性能跨越式提升,頂尖大模型規模化驗證,頭部公司主動佈局——TPU已從算力產業的補充路線,升級為主流路線。輝達一家獨大的格局,正在被改寫。十年磨一劍「TPU之父」要造下一代AI晶片2025年底,輝達斥資200億美元,拿下AI晶片創企Groq的核心技術和團隊。這是輝達史上最大的一筆交易,溢價近三倍。Groq創始人Jonathan Ross,被稱為「TPU之父」,GoogleTPU的核心設計者之一。離開Google後,他創立Groq的目標很明確:做一顆超越GoogleTPU的晶片。兩者的差異在架構。GoogleTPU走的是「固定架構+叢集擴展」路線。其中,晶片內部搭載固定計算單元,依託二維資料流運算;晶片間通過3D Torus拓撲實現高效互聯。架構穩定,但靈活性有限。GoogleTPU架構Groq的TSP(Tensor Streaming Processor)則是一種「軟體定義硬體」的資料流處理器。其核心理念是,通過建構可重構的軟硬體系統,在保持可程式設計性的同時,達到接近ASIC的極致性能。具體來說,晶片內部做了功能切片化微架構設計,配合軟體層的靈活配置,可根據不同任務即時調整計算邏輯和資料流路徑。同時,依託大容量片上SRAM及靜態調度機制,顯著提升了資料訪存效率並降低搬運能耗。美國DARPA「電子復興計畫」(ERI)高度看好「軟體定義硬體」方向,將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。資料顯示,在相同推理任務中,Groq晶片首token延遲比GoogleTPU v7降低20%至50%,每token成本降低10%至30%。這場晶片革命,才剛開始加速Groq被收編,但「高階TPU」的進化沒停。國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。1. 通過3D Chiplet技術建構三維立體資料流架構。具體來說,「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式,突破了傳統二維架構的效率侷限。三維架構可以依據計算任務的需求和資料特性,在兩個維度上靈活調度資料流,最大化縮短傳輸路徑,降低搬運過程中的延遲與能耗,從而進一步提升整體計算效率。2. 依託算力網格技術建構靈活資料流計算範式。傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網,實現Scale up與Scale out的協同。根據AI任務特性,系統能即時下發資料流的動態配置資訊,在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲,充分釋放資料流架構的算力。3. 通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。這項技術將資料流架構從晶片尺度擴展到整片晶圓。在整張晶圓上高密度整合大量計算核心,計算核心間的互聯距離被極大縮短。帶來的結果是,互聯頻寬實現數量級提升,通訊延遲大幅降低。資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。以Cerebras為例。資料顯示,Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍,成本與功耗均降低三分之一,在算力、成本、能效上展現出顯著的綜合優勢。在實測中,OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度,讓程式碼編寫第一次有了即時互動的體驗。Cerebras CS-3 vs輝達GPU:大模型推理速度對比GPU獨霸的時代,回不去了GoogleTPU走出圍牆,OpenAI擁抱晶圓級晶片,輝達天價收編Groq。這些訊號均指向同一個方向:算力世界的單極格局正在鬆動。定義下一代AI上限的,不再是單純的算力規模,而是能耗、延遲、確定性共同構成的AI新標尺。對於國產晶片而言,這是窗口,也是分水嶺。簡單復刻只能分得殘羹,唯有在底層架構上走出自己的創新之路,才有資格進入下一輪博弈。 (新智元)
全球算力格局震盪,“高階TPU”崛起!
非GPU時代大幕拉開。頭圖由AI生成芯東西3月2日消息,近日,多家外媒報導,非GPU晶片應用迎來爆發期,前有Meta傳已與Google簽署數十億美元合作,大規模租用TPU訓練模型;後有OpenAI被曝計畫匯入輝達基於Groq技術的AI推理晶片。這些重磅合作正是全球AI算力格局加速重構的縮影。2026年伊始,摩根大通的一份產能報告流出:Google計畫在2027年部署600-700萬顆TPU,大部分將供給Anthropic、OpenAI、Meta以及蘋果等外部客戶。無獨有偶,2月13日,OpenAI上線GPT-5.3-Codex-Spark。這款模型選擇了一家特殊的晶片廠商來承接推理任務——Cerebras,一個以“晶圓級晶片”挑戰輝達的“叛逆者”。這是OpenAI首次在主力模型上大規模採用非GPU晶片完成部署,背後原因在於Cerebras帶來的更低延遲與更低能耗,為即時程式設計帶來接近即時的響應體驗。僅僅半年之前,全球AI產業的目光還牢牢鎖定在輝達的財報和產能分配上,人們爭相與這家算力巨擘結成利益同盟。如今,全球頭號AI玩家們紛紛重新規劃未來幾年的晶片訂單。IDC預測,到2028年,中國非GPU伺服器市場規模佔比將接近50%;高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%增長至2027年的45%。▲全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部,芯東西製圖)面對日益清晰的算力變局,一個更深層的轉折正在發生:AI的競爭焦點正從單純的算力規模,深刻轉向對能效比與延遲的極致追求。這一轉折,將GPU推向尷尬境地:由於每次計算都需要在外部視訊記憶體和計算單元之間頻繁往返搬運資料,這種冗長的傳輸路徑讓GPU始終受困於高能耗和高延遲的先天缺陷。路透社爆料,OpenAI已多次表示對輝達晶片的“不滿”——響應速度未達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條“巨龍”尋求改變。2025年底,輝達不惜以近三倍溢價拿下Groq核心技術與團隊。這家公司的創始人Jonathan Ross正是GoogleTPU核心設計者。被稱為“TPU之父”的他,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。最終,輝達以200億美元的天價,買下了這把“高階TPU”之劍。去GPU化的趨勢仍在繼續。沒有人願意把未來十年的基礎設施押注在一個能耗大、延遲高、系統封閉的技術上。但這場算力變局的核心懸念尚未解開:TPU能否真正扛起對抗GPU的大旗?那個讓輝達不惜押下重注的Groq,又藏著怎樣的技術底牌?01.從自用到商用:GoogleTPU擾動全球算力格局一直以來,GoogleTPU都作為其內部的核心算力支撐,專供自家大模型訓練與推理使用。而去年至今,Google策略發生重大轉變,被曝要正式將TPU推向商用市場。巨額訂單迅速湧向Google。博通CEO透露,AI明星公司Anthropic下單了總額210億美元(約1486億元人民幣)的訂單,採購基於GoogleTPU建構的AI算力系統;與此同時,Meta被曝已與Google達成數十億美元的AI晶片交易。此外,潛在客戶還包括蘋果,以及已與SpaceX合併的xAI等,TPU市場規模持續擴大。這背後是雙重機遇的疊加。一方面,大模型進入規模化落地階段,全球算力需求爆發、成本壓力加劇,單一依賴GPU的架構瓶頸日益凸顯。另一方面,GoogleTPU的性能已具備與頂級GPU分庭抗禮的實力——2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片:單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。更為關鍵的是,依託自研光電路交換機(OCS)技術,其萬卡級叢集可實現近乎線性的加速比,顯著降低了傳統GPU叢集在萬卡規模下的通訊效率損耗。▲Google TPU v5e、v5p、v6、v7晶片關鍵性能對比(圖片來源:SemiAnalysis)GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。此外,對於大模型公司而言,算力成本是繞不開的難題。“每美元產生的Token數”正取代峰值算力,成為衡量晶片商業價值的標尺。TPU憑藉AI專用架構帶來的2-4倍能效優勢,以及萬卡叢集近乎線性的擴展能力,將大模型推理的綜合成本相比GPU拉低50%以上——這正是Anthropic、Meta們用訂單投票的根本邏輯。因此,當下大多大模型企業會選擇採購TPU+GPU多元算力來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。這一事實表明:未來頭部AI公司,大機率都會轉向“多晶片平行”路線,以降低對單一架構的依賴、提升成本競爭力。▲OpenAI與Anthropic購買算力的成本對比(圖片來源:SemiAnalysis)綜上,GoogleTPU的性能跨越式提升、頂尖大模型的規模化驗證、頭部AI公司的主動佈局,這三重因素共同印證,TPU已從過去的全球算力產業補充路線,正式升級為全球算力競爭中的主流路線。這不僅打破了長期由輝達絕對主導的AI晶片格局,也為國內外算力晶片打開了全新發展窗口。02.不止於TPU:十年磨一劍,“TPU之父”探索更高階的可能然而,GoogleTPU的成功並非終點。國內外一批聚焦TPU晶片的創新企業快速崛起,它們擺脫復刻GoogleTPU的發展模式,逐步走出了一條差異化、多元化平行的發展之路。這其中的代表玩家,就是被輝達高價收購的AI晶片創企Groq。這家公司的創始人,被稱為“TPU之父”的Jonathan Ross,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。行業資深專家表示,二者的不同之處與晶片架構密切相關。GoogleTPU採用“固定架構+叢集擴展”的設計思路:其晶片內部搭載相對固定的計算單元,依託二維資料流模式開展固定化的算力運算;在晶片間互聯層面,則通過建構3D Torus拓撲結構,實現多晶片間的高效資料流傳輸與協同計算。▲GoogleTPU架構(圖片來源:Google官網)與GoogleTPU晶片的固定資料流不同,Groq的TSP(Tensor Streaming Processor)晶片是一種“軟體定義硬體”(Software Defined Hardware)的新型資料流處理器。“通過建構可重構的軟硬體系統,使其在保持可程式設計性的同時,達到接近ASIC的極致性能。”美國DARPA“電子復興計畫”(ERI)高度看好“軟體定義硬體”技術,並將其作為國家級戰略佈局的核心方向之一。這也是Groq被稱之為“高階TPU”的原因。通過晶片內功能切片化微架構的底層設計,結合軟體層面的靈活配置能力,TSP可根據不同任務場景和計算需求實現計算邏輯與資料流路徑對應。同時,該晶片依託大容量片上SRAM及靜態調度機制,在顯著提升資料訪存效率的同時還能有效降低資料搬運能耗,實現計算效率的提升。二者的性能表現對比,Groq的優勢也已經得到資料驗證。公開資訊顯示,在相同推理任務中,Groq晶片的首token延遲比GoogleTPU v7晶片降低20%~50%,每token成本降低10%~30%。架構選擇的背後,折射出整個產業對計算效率瓶頸的重新審視。電腦體系結構泰斗、圖靈獎獲得者David Patterson教授在最新研究中指出,大模型每次生成都繞不開資料搬運,而搬運能耗遠高於計算本身,未來的核心命題是“讓資料離計算更近”。為此,他提出了幾個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。這些均指向同一個目標——用架構創新降低資料移動的能耗與延遲。David Patterson的洞察將AI規模化的競爭拉回最樸素的物理層面,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。03.“高階TPU”含金量還在上升:三大創新將架構優勢發揮至極相比於Groq所強調的確定性資料流能力,國內的清微智能、海外的Cerebras等晶片企業在高效的多維度資料流動態配置及先進整合方式上,還在持續提升“高階TPU”的含金量。主要表現為如下幾個方面:其一,通過3D Chiplet技術建構三維立體資料流架構。依託“計算核心+3D DRAM芯粒”的組合,清微智能在“垂直+水平”兩個維度上形成高效資料流計算模式,核心目標是突破傳統二維資料流架構的效率侷限。具體而言,三維資料流計算架構可依據計算任務核心需求以及資料特性,在水平維度與垂直維度上實現資料流的靈活調度,最大化縮短資料傳輸路徑、提升資料流周轉效率,顯著降低資料搬運過程中的延遲與能耗,最終實現計算效率的進一步提升。其二,是依託算力網格技術建構靈活資料流計算範式。該技術可突破傳統固定組網的擴展性與語義適配瓶頸,通過靈活組網及Scale up與Scale out協同,能根據AI任務特性,即時下發資料流的動態配置資訊,實現在多種互聯拓撲結構間靈活切換和精準調度,降低互聯延遲,充分釋放資料流架構算力。其三,通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。具體而言,晶圓級晶片技術將資料流架構思想從晶片內部擴展至整片晶圓尺度,在整片晶圓高密度整合大量計算核心,極大縮短計算核心間的互聯距離,實現數量級的互聯頻寬提升與通訊延遲的降低,從而將資料流架構的算力規模與計算效能發揮到極致,是資料流計算架構的理想物理載體。以Cerebras晶圓級晶片為例。實測資料顯示,Cerebras CS 3系統在推理性能上較輝達旗艦DGX B200 Blackwell GPU快21倍,成本與功耗均降低 1/3,在算力、成本、能效上展現出顯著的綜合優勢。▲Cerebras CS-3 vs輝達GPU:大模型推理速度對比(圖片來源:Cerebras官網)04.結語:AI算力規則正在重構當GoogleTPU走出圍牆、OpenAI擁抱晶圓級晶片、輝達天價收編Groq,這些訊號均指向同一個方向:TPU已變成巨頭們真金白銀押注的主戰場。算力世界的單極時代,正在被多元架構終結。決定下一代AI天花板的,不再是算力堆砌的軍備競賽,而是能耗、延遲、確定性共同構成的AI能力新指標。對於國產晶片而言,這場變局既是機遇也是挑戰。跟隨者只能瓜分殘羹,唯有走出自己的底層創新之路,才有資格參與下一輪全球算力洗牌。 (芯東西)
Google TPU v7和輝達GB300的架構,供應鏈差異
01.Google TPU V7 vs 輝達GB300 晶片差異在 AI 晶片領域,Google TPU 與輝達 GPU 的競爭已進入白熱化階段。作為雙方的旗艦產品,TPU v7(代號 “Ironwood”)與 GB300 分別代表了專用 ASIC 架構與通用平行計算架構的巔峰水平,二者在架構設計、性能參數、能效比、擴展性及成本等維度存在顯著差異,這些差異直接決定了它們在不同 AI 場景中的適配性。TPU v7 屬於ASIC晶片的類別。TPU v7 延續了Google TPU 系列 “犧牲通用性、追求張量運算極致效率” 的設計邏輯,核心架構圍繞深度學習中的矩陣乘法(張量運算核心)深度定製,更加適合推理場景,單晶片功耗中等。GB300 作為輝達 Blackwell 架構的旗艦產品,延續了 GPU “通用平行計算” 的核心優勢,兼顧張量運算、圖形渲染、科學計算等多場景需求,算力較高,適合高算力的AI大模型訓練,成本高,功耗高。02.Google TPU V7 vs 輝達GB300機櫃級架構差異從表面參數來看,TPU v7 與 GB300 的差異首先體現在機櫃尺度上。TPU v7 機櫃的熱設計功率約為 90kW,整櫃部署 64 顆 TPU 晶片,採用 16 台 2U 伺服器的形態。網路層面使用 OCS 光交換架構,機櫃內部不設定獨立交換機,算力節點之間通過高度定製化的光互連直接通訊。相比之下,GB300 機櫃的單櫃功率提升至約熱 150kW,晶片數量 72 顆,伺服器形態收斂為 18 台 1U 伺服器,並配備獨立的 InfiniBand / 乙太網路交換裝置。這種設計明顯更貼近當前主流 AI 資料中心的部署邏輯。但真正值得關注的,並不是功率或晶片數量的差距,而是兩種機櫃在設計目標上的根本不同。TPU v7 本質上是為 Google 內部算力體系定製的“算力終端”;而 GB300 則被定義為可以被反覆複製、快速部署的“標準算力模組”。02.Google TPU V7 vs 輝達GB300伺服器內部架構差異TPU v7 伺服器部署4顆TPU晶片。在 TPU v7 的伺服器內部結構中,液冷系統呈現出高度聚焦的特徵。TPU 晶片被單獨配置為 4 塊小冷板,液冷覆蓋範圍嚴格限定在算力核心之上,而 CPU、記憶體、電源模組仍然沿用風冷方案,儲存系統則未被納入液冷體系。TPU v7 採用 EPDM 軟管、Parker NSP 接頭與 Manifold 分配結構,配合 In-row CDU 使用。這種方案具備良好的安裝靈活性和成本可控性,非常適合 Google 這種自建、自維運的資料中心體系。在 TPU v7 的體系裡,傳統意義上的“交換機”本身就被弱化了。TPU Pod 裡真正承擔大規模互聯角色的,是 OCS(Optical Circuit Switch,光電路交換),這種方案更多是一個“光層調度裝置”,而不是高功耗、高算力的包轉發晶片裝置。這類 OCS 的特點是交換晶片功耗低、發熱密度分散、運行狀態極其穩定,遠沒有 GPU 或 NVLink / InfiniBand 交換 ASIC 那麼“熱”。從熱設計角度看,它根本沒有到必須引入液冷的門檻,用成熟的風冷方案完全可以覆蓋,而且風險更低。GB300伺服器部署4GPU+2GPU。液冷方案更加複雜,液冷覆蓋率95%,幾乎全液冷覆蓋,是小冷板結構,4+2方案,採用不鏽鋼波紋管、MOD + UQD 快接結構,以及 Rack / Row 級 CDU 相容設計,為長期運行、頻繁部署與快速維護而服務的工程選擇。GB300 使用的是新一代 InfiniBand 交換平台(對應 Quantum / Quantum-X 這一代架構),單顆交換 ASIC 的功耗已經進入數百瓦等級,並且連接埠速率、SerDes 數量、內部交換頻寬都在指數級提升。GB300的交換機是1u高度,採用液冷架構方案,Asic晶片部署液冷冷板。04.Google TPU V7 vs 輝達GB300 供應鏈差異由於輝達目前只提供L6板卡產品,不直接提供L10-L11整機伺服器,比如冷板,CDU等部件屬於L6之後的環節,不屬於輝達的直接環節,但是液冷系統又是非常重要的一環,所以為保障下遊客戶使用輝達晶片正常運行,輝達會提前設計一套整機系統提供給終端及伺服器OEM廠商參考,在液冷生態體系中,輝達要求通過一系列的認證測試進而確定各個液冷元件的RVL(推薦供應商名錄);要成為供應商進入RVL基本成為進入輝達液冷生態體系的強制性要求。在RVL基礎上,輝達GB200採用強制指定少數液冷部件供應商的模式,如 Vertiv 是輝達指定的系統級液冷合作夥伴。在這種模式下,液冷供應商將可能形成產能瓶頸,無法支撐GB300及後續產品的巨大需求。為降低供應鏈的風險,輝達在GB300上做出了調整,僅負責提供液冷部件設計參考及介面的規範;由此給予了ODM/OEM廠商更大的設計靈活性,並且由CSP或ODM/OEM在RVL範圍內自主選擇液冷部件供應商,為新供應商的進入創造了條件。在這種模式下,液冷部件供應商需要同時通過英偉 達RVL 認證以獲取配套資格,同時也需要進入OEM/ODM的AVL(合格供應商名錄)以確保在液冷系統整合階段被選用。Google與輝達的冷供應商選擇模式不同,Google目前不直接出售TPU晶片,而是出售google Colud的算力,資料中心多數採用自健,所以Google的所有資料中心基礎設施產品由google自己採購。因此Google液冷系統供應商會作為一級供應商直接向Google提供配套產品,液冷系統供應商將向Google指定的部件供應商採購液冷系統部件。因此對於國內廠商來說有更大的機會切入Google的供應鏈並且能夠持續獲得市場份額。 (零氪1+1)
高盛:成本暴降70%!GoogleTPU強勢追趕,性價比已追平輝達
高盛表示,Google/Broadcom 的TPU正在迅速縮小與輝達GPU在推理成本上的差距。從TPU v6升級至TPU v7,單位代幣推理成本下降約70%,與輝達GB200 NVL72基本持平。這並不意味著輝達地位被動搖,但它清晰地表明,AI晶片競爭核心評價體系正在從“誰算得更快”,轉向“誰算得更便宜、更可持續”。在AI資本開支仍維持高位、但商業化壓力不斷上升的當下,市場關注點正在發生一場悄然卻深刻的轉移:大模型還能不能繼續“無視成本地跑下去”。據追風交易台,高盛最新發佈的AI晶片研究報告,並未延續市場熟悉的“算力、製程、參數規模”對比,而是從更貼近商業現實的角度切入——推理階段的單位成本。通過建構一條“推理成本曲線”,高盛試圖回答一個對AI產業至關重要的問題:在模型進入高頻呼叫階段後,不同晶片方案在折舊、能耗和系統利用率等約束下,每處理一百萬個token究竟需要付出多少真實成本。研究結論指向了一次正在加速、但尚未被充分消化的變化:Google/Broadcom 的TPU正在迅速縮小與輝達GPU在推理成本上的差距。從TPU v6升級至TPU v7,單位token推理成本下降約70%,使其在絕對成本層面與輝達GB200 NVL72基本持平,部分測算情形下甚至略具優勢。這並不意味著輝達的地位被動搖,但它清晰地表明,AI晶片競爭的核心評價體系正在從“誰算得更快”,轉向“誰算得更便宜、更可持續”。當訓練逐漸成為前期投入,而推理成為長期現金流來源,成本曲線的斜率,正在取代峰值算力,成為決定產業格局的關鍵變數。一、從算力領先到成本效率,AI晶片競爭的評價標準正在切換在AI發展的早期階段,訓練算力幾乎決定了一切。誰能更快訓練出更大的模型,誰就擁有技術話語權。然而,隨著大模型逐步進入部署與商業化階段,推理負載開始遠遠超過訓練本身,成本問題被迅速放大。高盛指出,在這一階段,晶片的性價比不再只由單卡性能決定,而是由系統層面的效率共同塑造,包括算力密度、互聯效率、記憶體頻寬以及能源消耗等多重因素。基於這一邏輯建構的推理成本曲線顯示,Google/Broadcom TPU在原始計算性能和系統效率上的進步,已經足以在成本維度上與輝達正面競爭。相比之下,AMD和亞馬遜Trainium在代際成本下降幅度上仍較為有限。從現階段測算結果看,兩者的單位推理成本仍明顯高於輝達和Google方案,對主流市場的衝擊相對有限。二、TPU成本躍遷的背後,是系統工程能力而非單點突破TPU v7實現大幅降本,並非來自單一技術突破,而是系統級最佳化能力的集中釋放。高盛認為,隨著計算晶片本身逐步逼近物理極限,未來推理成本能否繼續下降,將越來越依賴“計算相鄰技術”的進步。這些技術包括:更高頻寬、更低延遲的網路互聯;高頻寬記憶體(HBM)和儲存方案的持續整合;先進封裝技術(如台積電CoWoS);以及機架級解決方案在密度與能效上的提升。TPU在這些方面的協同最佳化,使其在推理場景中展現出明顯的經濟性優勢。這一趨勢也與Google自身的算力部署高度一致。TPU在Google內部工作負載中的使用比例持續上升,已廣泛用於Gemini模型的訓練與推理。同時,具備成熟軟體能力的外部客戶也在加速採用TPU方案,其中最引人注目的案例是Anthropic向Broadcom下達的約210億美元訂單,相關產品預計將在2026年中開始交付。不過,高盛同時強調,輝達仍然掌握“上市時間”優勢。在TPU v7剛剛追平GB200 NVL72之際,輝達已經推進至GB300 NVL72,並計畫在2026年下半年交付VR200 NVL144。持續的產品迭代節奏,仍是其維持客戶黏性的關鍵籌碼。三、投資含義再平衡:ASIC崛起,但輝達的護城河尚未被擊穿從投資視角看,高盛並未因TPU的快速追趕而下調對輝達的判斷。該機構仍維持對輝達與Broadcom的買入評級,認為兩者最直接繫結AI資本開支中最具可持續性的部分,並將長期受益於網路、封裝和系統級技術升級。在ASIC陣營中,Broadcom的受益邏輯尤為清晰。高盛已將其2026財年每股收益預期上調至10.87美元,較市場一致預期高出約6%,並認為市場仍低估了其在AI網路與定製計算領域的長期盈利能力。AMD和亞馬遜Trainium當前仍處於追趕階段,但高盛也指出,AMD的機架級方案存在後發優勢的可能性。預計在2026年末,基於MI455X的Helios機架方案有望在部分訓練與推理場景中實現約70%的推理成本下降,值得持續跟蹤。更重要的是,這份研報給出的並非“贏家通吃”的結論,而是一幅逐漸清晰的產業分工圖景:GPU繼續主導訓練與通用算力市場,而定製ASIC在規模化、可預測的推理負載中不斷滲透。在這一過程中,輝達的CUDA生態與系統級研發投入仍構成堅實護城河,但其估值邏輯也將持續接受“推理成本下行”的現實檢驗。當AI真正進入“每一個token都要算回報”的階段,算力競爭終究要回到經濟學本身。TPU成本暴降70%,並不是一次簡單的技術追趕,而是一次對AI商業模式可行性的關鍵壓力測試。而這,或許正是GPU與ASIC之爭背後,市場最應認真對待的訊號。 (invest wallstreet)